智能论文笔记

Free-form 3D Scene Inpainting with Dual-stream GAN

Ru-Fen Jheng , Tsung-Han Wu , Jia-Fong Yeh , Winston H. Hsu

分类：计算机视觉

2022-12-16

Nowadays, the need for user editing in a 3D scene has rapidly increased due to the development of AR and VR technology. However, the existing 3D scene completion task (and datasets) cannot suit the need because the missing regions in scenes are generated by the sensor limitation or object occlusion. Thus, we present a novel task named free-form 3D scene inpainting. Unlike scenes in previous 3D completion datasets preserving most of the main structures and hints of detailed shapes around missing regions, the proposed inpainting dataset, FF-Matterport, contains large and diverse missing regions formed by our free-form 3D mask generation algorithm that can mimic human drawing trajectories in 3D space. Moreover, prior 3D completion methods cannot perform well on this challenging yet practical task, simply interpolating nearby geometry and color context. Thus, a tailored dual-stream GAN method is proposed. First, our dual-stream generator, fusing both geometry and color information, produces distinct semantic boundaries and solves the interpolation issue. To further enhance the details, our lightweight dual-stream discriminator regularizes the geometry and color edges of the predicted scenes to be realistic and sharp. We conducted experiments with the proposed FF-Matterport dataset. Qualitative and quantitative results validate the superiority of our approach over existing scene completion methods and the efficacy of all proposed components.

translated by 谷歌翻译

Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

Chi-Ming Chung , Yang-Che Tseng , Ya-Ching Hsu , Xiang-Qian Shi , Yun-Hung Hua , Jia-Fong Yeh , Wen-Chin Chen , Yi-Ting Chen , Winston H. Hsu

分类：机器人 | 计算机视觉

2022-09-27

高度期望可以通过视觉信号执行复杂任务并与人合作执行复杂任务的空间AI。为了实现这一目标，我们需要一个视觉大满贯，该猛击很容易适应新场景而无需预训练，并为实时的下游任务生成密集的地图。由于其组件的固有局限性，先前基于学习和非学习的视觉大满贯都不满足所有需求。在这项工作中，我们开发了一个名为Orbeez-Slam的视觉猛烈抨击，该作品成功地与隐式神经表示（NERF）和视觉探测仪合作以实现我们的目标。此外，Orbeez-Slam可以与单眼相机一起使用，因为它只需要RGB输入，从而广泛适用于现实世界。我们验证其对各种具有挑战性的基准的有效性。结果表明，我们的大满贯速度比强大的渲染结果快800倍。

translated by 谷歌翻译

Fair Robust Active Learning by Joint Inconsistency

Tsung-Han Wu , Shang-Tse Chen , Winston H. Hsu

分类：机器学习 | 计算机视觉

2022-09-22

公平的积极学习（FAL）利用积极的学习技术来实现有限的数据，并在敏感组之间达到公平性（例如，性别）。但是，FAL尚未解决对抗性攻击对各种安全至关重要的机器学习应用至关重要的影响。观察到这一点，我们介绍了一项新颖的任务，公平的健壮的积极学习（FRAL），整合了常规的FAL和对抗性鲁棒性。弗拉尔（Fral）要求ML模型利用主动学习技术在良性数据上共同实现均衡的绩效，并对群体之间的对抗性攻击进行均衡的鲁棒性。在这项新任务中，以前的FAL方法通常面临无法忍受的计算负担和无效性的问题。因此，我们通过联合不一致（JIN）制定了一种简单而有效的弗拉尔策略。为了有效地找到可以提高弱势组标签的性能和鲁棒性的样品，我们的方法利用了良性和对抗样本以及标准模型和强大模型之间的预测不一致。在不同的数据集和敏感组下进行的广泛实验表明，我们的方法不仅可以在良性样本上实现更公平的性能，而且与现有的活跃学习和FAL基本线相比，在白盒PGD攻击下，我们的方法还获得了更公平的鲁棒性。我们很乐观，弗拉尔将为开发安全，强大的ML研究和应用程序（例如生物识别系统中的面部属性识别）铺平道路。

translated by 谷歌翻译

CFVS: Coarse-to-Fine Visual Servoing for 6-DoF Object-Agnostic Peg-In-Hole Assembly

Bo-Siang Lu , Tung-I Chen , Hsin-Ying Lee , Winston H. Hsu

分类：机器人

2022-09-19

机器人钉孔组件由于其准确性的高度需求而仍然是一项具有挑战性的任务。先前的工作倾向于通过限制最终效果的自由度，或限制目标与初始姿势位置之间的距离来简化问题，从而阻止它们部署在现实世界中。因此，我们提出了一种粗到精细的视觉致毒（CFV）钉孔法，基于3D视觉反馈实现了6DOF最终效应器运动控制。CFV可以通过在细化前进行快速姿势估计来处理任意倾斜角度和较大的初始对齐误差。此外，通过引入置信度图来忽略对象无关的轮廓，CFV可以抵抗噪声，并且可以处理训练数据以外的各种目标。广泛的实验表明，CFV的表现优于最先进的方法，并分别获得100％，91％和82％的平均成功率，分别为3-DOF，4-DOF和6-DOF PEG-IN-IN-HOLE。

translated by 谷歌翻译

D2ADA: Dynamic Density-aware Active Domain Adaptation for Semantic Segmentation

Tsung-Han Wu , Yi-Syuan Liou , Shao-Ji Yuan , Hsin-Ying Lee , Tung-I Chen , Kuan-Chih Huang , Winston H. Hsu

分类：计算机视觉 | 机器学习

2022-02-14

在域适应领域，模型性能与目标域注释的数量之间存在权衡。积极的学习，最大程度地提高了模型性能，几乎没有信息的标签数据，以方便这种情况。在这项工作中，我们提出了D2ADA，这是用于语义分割的一般活动域的适应框架。为了使模型使用最小查询标签调整到目标域，我们提出了在目标域中具有高概率密度的样品的获取标签，但源域中的概率密度较低，与现有源域标记的数据互补。为了进一步提高标签效率，我们设计了动态的调度策略，以调整域探索和模型不确定性之间的标签预算。广泛的实验表明，我们的方法的表现优于现有的活跃学习和域适应基线，这两个基准测试基准，GTA5-> CityScapes和Synthia-> CityScapes。对于目标域注释不到5％，我们的方法与完全监督的结果可比结果。我们的代码可在https://github.com/tsunghan-wu/d2ada上公开获取。

translated by 谷歌翻译

Stage Conscious Attention Network (SCAN) : A Demonstration-Conditioned Policy for Few-Shot Imitation

Jia-Fong Yeh , Chi-Ming Chung , Hung-Ting Su , Yi-Ting Chen , Winston H. Hsu

分类：机器人 | 人工智能

2021-12-04

在几次拍摄的仿制学习（FSIL）中，使用行为克隆（BC）来解决少数专家演示的看不见的任务成为一个流行的研究方向。以下功能在机器人应用中至关重要：（1）在包含多个阶段的复合任务中行为。（2）从少量变体和未对准示范中检索知识。（3）从不同的专家学习。以前没有工作可以同时达到这些能力。在这项工作中，我们在上述设置的联盟下进行FSIL问题，并介绍一个小说阶段意识注意网络（扫描），以同时检索来自少数示范的知识。扫描使用注意模块识别长度变体演示中的每个阶段。此外，它是根据演示条件的政策设计，了解专家和代理人之间的关系。实验结果表明，扫描可以从不同的专家中学习，而不进行微调和优于复杂的复合任务的基线，可视化可视化。

translated by 谷歌翻译

3rd Place Solution for NeurIPS 2021 Shifts Challenge: Vehicle Motion Prediction

Ching-Yu Tseng , Po-Shao Lin , Yu-Jia Liou , Kuan-Chih Huang , Winston H. Hsu

分类：计算机视觉

2021-12-02

转变挑战：实际分配转移下的鲁棒性和不确定性是由神经潜逃2021举办的竞争。本次竞争的目的是寻找解决跨域中运动预测问题的方法。在真实世界数据集中，它存在于输入数据分布和地面真实数据分布之间的差异，该数据分布称为域移位问题。在本报告中，我们提出了一种由艺术论文的最新的新建筑。主要贡献是具有自我关注机制和主要损耗功能的骨干架构。随后，我们赢得了第三名，如排行榜上所示。

translated by 谷歌翻译

Anomaly-Aware Semantic Segmentation by Leveraging Synthetic-Unknown Data

Guan-Rong Lu , Yueh-Cheng Liu , Tung-I Chen , Hung-Ting Su , Tsung-Han Wu , Winston H. Hsu

分类：计算机视觉

2021-11-29

异常意识是安全关键型应用的重要能力，如自主驾驶。虽然最近的机器人和计算机视觉的进展使得对图像分类的异常检测，但对语义细分的异常检测不太探讨。传统的异常感知系统假设其他现有类作为用于训练模型的分发（伪未知）类的类将导致两个缺点。（1）未知类，需要应对哪些应用程序，在培训时间内实际上无法实际存在。（2）模型性能强烈依赖课堂选择。观察这一点，我们提出了一种新的合成未知数据生成，打算解决异常感知语义分割任务。我们设计一个新的蒙版渐变更新（MGU）模块，以沿着分布边界生成辅助数据。此外，我们修改了传统的跨熵损失，强调边界数据点。我们在两个异常分段数据集上达到最先进的性能。消融研究还证明了所提出的模块的有效性。

translated by 谷歌翻译

ReDAL: Region-based and Diversity-aware Active Learning for Point Cloud Semantic Segmentation

Tsung-Han Wu , Yueh-Cheng Liu , Yu-Kai Huang , Hsin-Ying Lee , Hung-Ting Su , Ping-Chia Huang , Winston H. Hsu

分类：计算机视觉 | 机器学习

2021-07-25

尽管深入学习对监督点云语义细分的成功取得了成功，但获得大规模的逐点手动注释仍然是一个重大挑战。为了减轻巨大的注释负担，我们提出了一个基于区域和多样性的积极学习（REDAL），这是许多深度学习方法的一般框架，旨在自动选择用于标签获取的信息丰富和多样化的子场所。观察到只有一小部分带注释的区域足以通过深度学习的方式理解3D场景，我们使用SoftMax熵，颜色不连续性和结构复杂性来衡量子场所区域的信息。还开发了一种多样性的选择算法，以避免通过在查询批次中选择信息性但相似的区域而产生的多余注释。广泛的实验表明，我们的方法的表现高于先前的活跃学习策略，并且我们达到了90％的全面监督学习，而S3DIS和Semantickitti数据集则需要不到15％和5％的注释。我们的代码可在https://github.com/tsunghan-wu/redal上公开获取。

translated by 谷歌翻译

Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

Yueh-Cheng Liu , Yu-Kai Huang , Hung-Yueh Chiang , Hung-Ting Su , Zhe-Yu Liu , Chin-Tang Chen , Ching-Yu Tseng , Winston H. Hsu

分类：计算机视觉

2021-04-10

由于缺乏大规模标记的3D数据集，大多数3D神经网络都是从划痕训练。在本文中，我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质，我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外，我们设计了一个上采样功能投影层，以增加高级2D特征图的空间分辨率，这使得能够学习细粒度的3D表示。利用普雷累染的2D网络，所提出的预介绍过程不需要额外的2D或3D标记数据，进一步缓解了昂贵的3D数据注释成本。据我们所知，我们是第一个利用现有的2D培训的权重，以预先rain 3D深度神经网络。我们的密集实验表明，使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。

translated by 谷歌翻译